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摘 要 : 针对 K-means 聚 类 算法 存在 的 不 足 ， 提 出 了 改进 K-means 来 提高 算法 的 性 能 ， 利 用 简化 后 的 轮廓 系数 作为 
评估 标准 衡量 K-means 算法 中 上 k 值 ， 采用 KK-means++ 完 成 K-means 算法 初始 中 心 点 的 选择 。 设 置 好 大 值 以 及 初始 中 
心 点 后 使 用 形态 学 相似 距离 作为 相似 度 测 Sa tg 最 近 的 中 心 点 形成 的 徐 中 ， 最 后 计算 平均 轮廓 
系数 确定 合适 的 天 值 ， 并 在 Spark 上 实现 算法 并 行 化 。 通 过 对 四 个 标准 数据 集 在 准确 性 ， 运 行 时 间 和 加 速 比 三 个 方 
面 的 实验 表明 ， 改 进 后 的 K-means 算法 相对 于 传统 的 K-means 算法 和 SKDK-means 算法 不 仅 提高 了 聚 类 划分 质量 ， 
缩短 了 计算 时 间 ， 而 且 在 多 节点 的 集群 环境 下 表现 出 良好 的 并 行 性 能 。 实 验 结果 分 析出 提出 的 改进 算法 能 有 效 提 高 
算法 执行 效率 和 并 行 计 算 能 
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Parallel implementation of improved K-means algorithm based on Spark 
— Du Jiaying, Duan Longzhen, Duan Wenying, Bu Qiujin 
3 (College of Information Engineering, Nanchang University, Nanchang 330031, China) 


Abstract: Aiming at the deficiency of K-means clustering algorithm, this paper proposes an improved algorithm with the 
q use of simplified silhouette coefficient as the evaluation criterion to measure the k value in K-means to boost the algorithm 


performance. The K-means++ algorithm is used to choose the initial center points in the K-means algorithm. After setting 


the k value and the initial center point, morphology similarity distance is used as the similarity measurement standard to 
assign the data points to the cluster formed by the closest center point. And finally calculate the average silhouette 
coefficient to determine the appropriate k value. The improved algorithm in this paper is implemented on Spark. 
Experiments on accuracy, run-time and speedup of four standard datasets show that the improved K-means algorithm not 
only improves the quality of clustering division compared with the traditional K-means algorithm and SKDK-means 
algorithm, but also shortens the calculation time, showing good parallel performance in a multi-node cluster environment. 
The experimental results suggest that the improved algorithm proposed in this paper can effectively improve the algorithm 
execution efficiency and parallel computing ability. 


Key words: clustering algorithm; simplified silhouette coefficient, msd distance; similarity measurement 


[= 0 ”引言 在 当今 大 数据 的 时 代 背 景 下 ， 许 多 专家 学 者 相继 提出 了 
e e 许多 基于 Spark 的 改进 算法 。 徐 鹏 程 等 人 中 利 用 Canopy 算法 
聚 类 分 析 是 数据 挖掘 领域 一 项 重要 的 研究 课题 ， 它 是 探 ” ”确定 簇 类 数 并 使 用 最 大 最 小 距离 选取 初始 点 ， 而 Canopy 算 
索 数据 挖掘 的 主要 任务 ， 在 统计 分 析 数 据 方面 它 被 广泛 使 用 法 需要 预先 确定 好 阔 值 T1 和 T2, 结 果 的 好 坏 很 大 程序 得 受 阔 
在 多 个 领域 , 包括 图 形 图 像 处 理 凯 、 信 息 检索 中、 文本 挖 据 申 值 的 影响 。 邓 青 等 人 提出 基于 最 小 准则 函数 的 K-means 改进 
等 方面 。K-means 算法 是 聚 类 分 析 中 广泛 使 用 的 算法 ， 它 存 算法 ， 通 过 i 次 取样 每 次 得 到 一 个 聚 类 中 心 合 并 后 确定 个 
在 两 点 不 足 : k 值 的 不 确定 导致 每 次 迭代 后 的 实际 结果 与 理 ”初始 中 心思。 宋 董 飞 等 人 加 提出 了 并 行 算法 ， 该 算法 使 用 
想 值 有 偏差 四 ; 其 次 ， 初 始点 的 随意 选择 使 结果 不 稳定 ， 使 kd-tree 选择 初始 点 并 利用 它 的 最 近邻 搜索 减少 距离 计算 过 
得 最 终 的 聚 类 结果 将 产生 很 大 的 误差 值 。 程 ， 加 快 聚 类 速度 使 其 有 效应 用 于 海量 数据 中 。 后 两 位 学 者 
随 着 当今 数据 的 急剧 上 升 ， 一 些 并 行 计算 模型 包括 主要 针对 初始 点 的 选择 作出 了 改进 ， 而 kk 值 是 不 确定 的 ， 选 
MapReduce 和 Spark 开始 流行 起 来 , 由 于 MapReduce 的 中 间 ” 择 合 适 的 值 对 于 聚 类 结果 准确 率 有 着 必要 的 影响 。 因 此 ， 
计算 结果 保存 在 人 硬盘 上 ， 而 迭代 计算 需要 在 Hadoop 分 布 式 。 本 文采 用 简化 轮廓 法 作为 有 效 性 评估 方法 确定 簇 类 个 数 大 
文件 系统 (HDFS) 重 复 地 进行 读 写 操作 导致 较 高 的 IO 负荷 和 MB. XF K-means 初始 点 随机 选择 的 问题 ，Arthur 等 人 提出 
时 间 消 耗 ， 所 以 MapReduce f Z3 GTVT TEEDI. ERI. 了 K-means++ 算 法 中 ， 该 算法 可 以 自动 获取 到 K 个 初始 点 ， 
Spark 能 克服 Hadoop 存在 的 不 足 , 它 作 为 一 种 基于 内 存 的 分 。 避免 随机 选择 初始 点 带 来 的 不 稳定 性 ， 同 时 也 能 加 快 算法 收 
布 式 框架 可 以 把 中 间 计 算 结 果 放 于 内 存 中 ， 而 且 启 动 速度 很 敛 速度 ， 因 此 本 文 引 入 K-means++ 算 法 来 提 高 算法 性 能 。 
快 。 利 


fli 


上 述 提 到 的 概念 ， 为 了 加 快 算法 聚合 速度 ， 提 高 算 
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法 准确 率 ， 并 能 在 数据 量 较 大 的 情况 下 通过 并 行 计 算 获 得 较 其 中 : a 和 ,bG) 分 别 用 以 下 公式 表示 ; 

快 的 处 xni. 得 到 较 优 的 聚 类 结果 。 本 文 提出 基于 Spark a(i) 2 dg (x;.c,) (2) 
的 K-means 算法 改进 及 并 行 化 实现 , 并 用 标准 UCI 数据 集 说 b(i) = mind, (xc, );(Ih) (3) 
明 改 进 后 算法 的 性 能 有 所 提升 。 其 中 : dixe) dz d 到 所 在 的 艇 的 簇 中 心 的 欧 氏 距离 ， 


1 ”相关 工作 


1.4 Spark 框架 

Apache Spark 是 一 个 开源 的 大 数据 聚 类 计算 的 分 布 式 框 
架 ， 它 提供 了 数据 并 行 性 以 及 高 容错 性 等 良好 的 特性 。 它 还 
提供 了 Python, Java 和 Scala 的 简单 的 编程 接口 00。Spark 
象 出 来 的 弹性 分 布 式 数据 集 (RDD) 使 得 Spark 能 更 好 得 处 
理 迭 代 任 务 ，RDDs 在 数据 集群 中 只 可 读 ， 存 储 方式 有 两 种 ， 
一 是 以 文件 的 形式 保存 在 外 界 存储 系统 中 如 HDFS， 二 是 通 
过 其 他 的 RDDs 产生 。RDDs 操作 形式 有 两 种 分 别 是 
transformations 和 actions， 前 者 指 的 是 从 已 有 的 数据 集中 创 
造 新 的 数据 集 出 来 如 RDDs， 后 者 将 数据 集 上 计算 得 到 的 结 


果 返 回 给 Driver 程序 如 HDFS。 如 下 图 1 所 示 。 
输入 i 
SparkCon transtor i 
数据 action 
mrs | 一 > íN => 
TEXT 
J 


图 1 spark 编程 模型 
Fig.1 Spark programming module 
Spark 的 集群 模式 是 以 master-slave 的 形式 存在 的 ， 由 一 
个 Master 节点 和 多 个 Slave 节点 组 成 ,其 中 master 节点 负责 
整个 集群 任务 的 分 配 ， 调 度 和 监测 工作 ， 而 slave 节点 执行 


worker 任务 ， 它 主要 负责 计算 和 产生 状态 报告 。Spark 支持 
多 种 形式 的 运行 模式 包括 单机 方式 , 集群 方式 , 在 yarn. 上 和 


在 Mesos 上 等 多 种 方式 。 
1.2 K-means++ 算 法 

K-means++ 算 法 是 一 个 用 来 选择 K-means 初始 中 心 点 的 
聚 类 算法 ,在 2007 年 首次 被 David Arthur 和 Sergei Vassilviskii 
等 人 提出 外 ， 它 避免 了 传统 K-means 算法 随机 选择 初始 点 带 
来 的 不 足 ， 也 是 一 种 改进 算法 ， 算 法 如 下 图 2 所 示 。 


Algorithm 1 k-means----(k) initialiazation 


1: C < sample a point uniformly at random from X 
2: while|C| - k. do 


d? (x.C) 
x COO 


3: Sample xc X with probability 


4: C-—CU(x) 


5: end while 


图 2 K-means++ 算 法 流程 


Fig.2 K-means algorithm flow chart 
具体 的 算法 流程 如 下 所 示 : 
a) 从 数据 集中 随机 选择 一 点 作为 首 个 中 心 点 ; 
b) 对 于 数据 集中 的 每 一 个 样本 点 x 分 别 计算 它 与 当前 已 
有 质心 之 间 的 最 短 距离 ， 记 为 D(x); 
c) 选 择 一 个 新 的 点 作为 新 的 中 心 点 : 根据 概率 公式 , D(x) 


越 大 的 点 作为 中 心 点 的 概率 越 大 ; 
DEN b) c) ELSE BE HI K 个 中 心 点 ; 
定义 1 简化 轮廓 法 0 。 


ss(i)— 


b(i)-a() 
max (a(i),b(1)) a) 


E 


轮廓 法 不 同 的 是 简化 轮廓 法 采用 


mind, (xc) 表示 点 i 到 其 他 簇 中 心 的 距离 的 最 小 值 ， 与 原始 


的 是 数据 点 到 簇 中 心 的 距 


离 ， 而 原始 轮廓 法 则 是 数据 点 到 所 有 点 的 平均 距离 。 
于 原始 轮廓 法 能 


它 相 对 
加 快 计算 时 间 , 在 不 同 的 K 值 下 得 到 更 好 的 


结果 。 


数据 集 D 的 平均 简化 轮廓 值 ss 为 
SS 一 M» (i) (4) 


H. rH 


: s 是 数据 集 D 所 有 点 的 平均 轮廓 值 ， 数 值 范围 在 -1 


了 


到 1 之 间 ，- 
比 应 取 接 近 1 的 k 值 。 


1 表示 簇 类 划分 效果 不 好 ，1 表示 效果 很 好 ， 因 


定义 2 ” 明 可 夫 斯 基 距 离 : 


p01) (Sh, -ny (5) 


其 中 : m 是 向 量 维度 ，X; 是 向 量 j 的 第 i 个 属性 值 ， 


Ya zÆ [8] 


Hi 
a 
G 
T 
> 
2 


属性 值 ，|X; -| 表示 的 是 点 与 点 在 属性 i 上 的 


di 


X, 是 第 j 个 向 量 的 第 i 个 属性 值 ， 
属性 值 , m 为 特征 维度 。 如 果 Xi 都 比 Ya 大 或 都 比 Yu 小 , ASD 


5 时 表示 曼哈顿 距离 ，P =2 时 表示 欧 氏 距离 。 
定义 3 形态 学 相似 距离 MSD(morphology similarity 
istance) U?l, 


duso = EDx(2— ASD / SAD) (6) 


dasp = > (X; -Y;) (7) 
i=l 


式 (7) 中 ASD 代表 的 是 两 个 向 量 属性 差 值 之 和 的 绝对 值 ， 
Y; 是 第 k 个 向 量 的 第 i 个 


距离 就 变 成 曼哈顿 距离 了 。ED 表示 欧 氏 距离 ，SAD 是 曼 哈 
顿 距离 。 表 1 展示 了 向 量 间 的 距离 计算 例子 
表 1 向 量 间 的 距离 计算 
Table 1 Different distances between two vectors 

特征 差 ASD SAD ED MSD 

(-1,0,2) 1 3 2.236 3.727 

可 以 看 出 , 如 果 ASD/SAD-1 即 ASD 距离 等 于 曼哈顿 距 
离 时 ，MSD 距离 就 是 欧式 距离 。 


2 ”改进 K-means 算法 及 在 Spark 上 的 并 行 化 


2. 


准确 性 


k 


代 的 过 程 中 ， 利 


1 改进 K-means 算法 

本 文 提出 的 改进 -means 聚 类 算法 的 目的 是 提高 算法 的 
和 加 快 聚 类 收敛 速度 ， 其 中 心思 想 是 ， 首先 预 设 一 个 
值 ， 通 过 K-means++ 算 法 得 到 大 个 初始 中 心 点 ， 在 不 断 迭 
1 MSD 距离 将 所 有 的 数据 点 划分 到 距离 最 


近 的 簇 中 ， 然 后 重新 计算 各 个 簇 中 所 有 数据 点 的 中 心 点 作为 
新 的 徐 中 心 ， 重 复 此 过 程 直到 艇 中 心 不 再 变化 ， 最 后 计算 不 


同 大 值 下 聚 类 对 应 的 简化 轮廓 系数 ， 
及 对 应 的 艇 类 结果 。 


2. 


最 终 确 定 合适 的 大 值 以 


2 基于 Spark 的 K-means 改进 算法 的 并 行 实现 
为 了 能 有 效 地 提高 算法 的 并 行 计 算 能 力 ， 本 文 提 出 了 基 


T Spark 的 改进 K-means 算法 ,主要 是 围绕 “map” 和 “reduce” 


两 个 操作 进行 的 ， 算 法 流程 如 图 3 所 示 。 


并 行 化 过 程 中 每 一 个 分 区 都 对 应 


一 对 map 操作 和 
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Reduce 操作 ,并 且 同 时 进行 互 不 影响 。mapPartition 算 子 将 每 
块 分 区 的 数据 点 分 配给 最 近 的 簇 中 心 , 每 个 map 操作 并 行 完 
成 。ReduceByKey 算 子 将 所 有 分 区 块 中 的 同属 一 个 簇 中 心 的 
数据 点 融合 , 并 更 新 簇 中 心 , 该 reduce 过 程 同样 并 行 地 进行 。 
每 次 迭代 都 会 同时 进行 多 次 map-reduce 操作 ， 对 比 不 同上 值 
下 的 简化 轮廓 系数 确定 最 终 的 簇 类 结果 。 


mapPacition mapPartition. 


[和 个 点 对 应 到 中 心 点 | | 每 个 点 对 应 到 中 心 点 | 每 个 点 对 应 到 中 心 点 


reduceByKey reduceByKey 


更 新 簇 中心 


m 
是 否 满 足 满 
BREST 


计算 简化 轮廓 系数 


图 3 Spark 上 实现 并 行 化 改进 K-means 算法 流程 
Fig.3 Improved K-means implementation flow chart based on Spark 
图 4 展示 了 基于 Spark 的 改进 K-means 算法 ， 大 致 分 为 
数据 分 区 ， 聚 合 和 验证 三 个 阶段 。 

1) 数 据 分 区 阶段 

a) 准 备 Spark 环境 它 可 以 在 内 存 中 完成 计算 将 中 间 结 果 
储存 在 内 存 中 无 须 输 出 到 硬盘 ;b) 从 HDFS 读 入 数据 进 内 存 
里 , 加 载 成 RDD 的 形式 ;c)dense 将 数据 转换 为 密集 型 数据 类 
型 ， 通 过 split 操作 将 数据 分 片 然 后 转换 为 <key,value> 键 值 
对 ， 将 这 些 分 片 后 的 数据 分 配 到 不 同 的 计算 节点 中 ， 最 终 通 
过 mapPartition. 算 子 将 每 个 节点 中 的 数据 片 划分 给 不 同 的 簇 
中 心 。Cache 使 得 数据 能 够 在 内 存 中 持久 化 ， 而 每 一 块 分 区 
都 是 一 个 RDD. 

DRENE 

该 阶段 包括 步骤 4-8, k 值 是 由 人 为 合理 设置 的 ， 采 用 
K-means++ 选 取 大 个 初始 化 中 心 点 ， 将 这 些 选取 好 的 点 
broadcast 给 各 个 分 区 ， 再 通过 本 文 提 出 来 的 相似 性 度量 方法 
MSD 距离 把 数据 点 分 到 距离 最 近 的 中 心 点 形成 的 簇 中 。 然 后 
依据 reduceByKey 算 子 把 <centerId,pointList> 中 centerId 相同 
的 数据 点 聚集 在 一 起 形成 新 的 分 区 ， 统 计 每 个 簇 中 数据 点 的 
个 数 ， 并 重新 更 新 簇 中 心 。 如 果 当 前 迭代 次 数 小 于 最 大 和 迭代 
次 数 而 且 中 心 点 还 未 收 化 ， 则 继续 计算 新 的 簇 中 心 ， 否 则 结 
束 达 代 完 成 聚合 过 程 。 

3) 验证 阶段 

步骤 9 计算 整个 数据 集 的 平均 简化 轮廓 值 ， 用 它 作 为 
K-means 聚 类 算法 有 效 性 的 评估 测量 标准 选择 合适 的 大 值 。 
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输入 数据 样本 data, KÆR k, RAZAR maxlteration， 
初始 中 心 模式 initialization， 随 机 种 子 seed 


(1) yalsc = new SparkContext(conf); 

(2) val data = sctextFile(path); // 加 载 数据 

(3) val parsedData = data.map(s => Vectors dense(s.split( ') map( toDouble))).cache(); // 将 数据 转化 为 
RDD[Vector] 的 格式 并 持久 化 

(4)LocalKMeans.kMeansPlusPlusír, myCenters, myWeights, k, 30); // 用 k-means#+ 获 取 k 个 新 的 中 心 点 

(5) val bcNewCenters = data context broadcast(newCenters); // 将 中 心 点 广播 给 worker 节点 

(6) points foreach(point-»val(bestCenter, cost)-findClosestWithMSD(thisCenters, point))//msd 距离 找到 距离 最 
近 的 中 心 点 

(7) counts indices filter iterator{reduceByKey{case ((sum1, count1),(sum2, count2))=>(sum1,count1 
+count2);}collectAsMap().mapValues (case (sum count)-»distanceMeasurelnstance.centroid(sum, count)) // 通 过 
reduceByKey 统计 各 个 能 包含 的 数据 点 

(8) distanceMeasurelnstance.isCenterConverged(centers(j), newCenter，epsilon)j;// 判 断 中 心 点 是 否 收敛 

(9) computesimplifiedsilhouettescoredatasetclusterlds,pointclusterldj:// 计 算 所 有 样本 的 平均 轮 扁 值 确定 k 值 


图 4 Spark 上 实现 并 行 化 改进 K-means 算法 
Fig.4 Improved K-means algorithm based on Spark 


3 ”实验 结果 分 析 


本 文 在 Spark 分 布 式 集群 上 实现 了 改进 K-means 算法 ， 
它 由 一 台 master 主 节点 和 三 台 slave 从 节点 组 成 ， 每 台 机 器 
的 硬件 配置 都 是 ，CPU 双核 2.5 GHZ, 内存 4 GB, 硬盘 500 
GB. 操作 系统 是 64 位 Ubuntu16.04。 测试 采用 的 数据 集 是 从 
UCI 标准 数据 库 下 载 的 Iris, Wine, Glass, Flame 四 个 数据 
集 , 如 表 2 所 示 。 


表 2 所 用 数据 
Table 2 Datasets of used 
数据 集 记录 数 维度 聚 类 数 
Iris 150 4 3 
Wine 178 13 3 
Glass 214 9 7 
Flame 240 2 2 


a) 准 确 率 。 由 于 数据 集 每 条 记录 都 有 对 应 的 分 类 项 ， 
确 率 指 的 是 入 划分 正确 的 的 点 的 个 数 与 样本 点 总 个 数 的 比值 
用 来 反映 算法 的 准确 程度 。 图 5 比较 了 单机 环境 下 改进 后 的 
K-means 算法 与 传统 的 K-means 算法 和 文献 [8] 提 出 的 
K-means 算法 在 四 个 不 同 的 数据 集 下 准确 率 的 对 比 ， 从 图 中 
可 以 看 出 ， 每 个 数据 集 下 改进 后 的 算法 比 另 外 两 个 算法 的 准 
确 率 都 有 显著 提升 ， 原 因 在 于 改进 算法 使 用 简化 轮廓 系数 更 
好 地 确定 下 值 , 利用 K-means++ 得 到 个 中 心 点 并 通过 MSD 
距离 有 效 将 数据 点 划分 到 簇 中 提升 算法 准确 度 。 
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图 5 改进 算法 与 其 他 算法 的 准确 率 比 较 


Fig.5 Accuracy of improved K-means compared with other 


algorithms 
b) 运 行 时 间 。 运 行 时 间 用 来 评估 改进 算法 是 否 提高 了 算 
法 的 有 效 性 ， 它 决定 了 运行 速度 。 图 6 比较 了 这 三 种 算法 在 
不 同 数据 集 下 运行 时 间 。 可 以 看 出 并 行 后 的 改进 算法 在 时 间 
消耗 上 有 一 定 的 减少 ， 因 为 该 算法 减少 了 和 迭代 次 数 加 快 收 敛 
速度 从 而 有 效 提 高 了 算法 的 计算 性 能 。 而 在 并 行 计算 过 程 中 ， 
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比较 耗 时 的 阶段 是 当 利用 


MSD 上 距离 计算 各 个 艇 中 所 有 数据 


点 到 中 心 点 的 最 短 距离 时 , 随 着 数据 集 增 大 从 而 计算 量 增 大 ， 


运行 时 间 因 而 随 之 变 长 。 图 7 比较 了 改进 后 的 算法 在 并 行 环 


境 下 不 同 个 数 的 节点 及 不 同类 型 数据 集 下 的 运行 时 间 ， 


可 以 


发 现 ， 随 着 节点 增加 ， 算 法 运行 时 间 呈 下 降 趋势 且 逐 渐 趋 于 


速 比 用 来 
行 计算 和 并 行 计算 系统 中 运行 消耗 的 时 间 比 率 。 计 算 公式 为 
R=Ts/Tp, 其 中 Ts 是 以 传统 的 串 行 方式 运行 算法 消耗 的 时 间 ， 
Tp 是 算法 在 ! 


平缓 ,原因 在 于 节点 间 通 信和 


s 


间 增 加 抵消 了 集群 带 来 的 增益 。 
c 加 速 比 。 为 了 更 加 准确 地 测量 并 行 算 法 的 有 效 性 ， 加 
j 量 程序 并 行 化 的 性 能 ， 它 指 的 是 同一 个 任务 在 串 


A 


s 个 节点 构成 的 集群 环境 中 计算 的 时 间 。R 越 


大 表示 算法 在 并 行 环境 中 所 需要 的 计算 时 间 越 少 ,从 而 说 明 
算法 的 并 行 性 越 高 。 为 了 测试 改进 后 的 算法 的 并 行 能 力 ， 实 
验 同样 基于 四 个 数据 集 进行 对 比 ， 改 进 的 算法 的 效果 如 图 S 
所 示 。 可 以 看 出 本 文 提 出 的 改进 算法 随 着 节点 数 增加 ， 加 速 
比 也 随 之 增 大 。 纵 向 对 比 ， 在 具有 同样 多 节点 的 环境 下 ， 较 


大 的 数据 集 
点 需要 计算 的 数据 集会 有 所 下 降 ， 从 而 并 行 计算 时 间 Tp 变 
小 ， 即 加 速 比 增 大 。 
增 大 品行 计算 时 间 


有 更 高 的 加 速 比 。 当 计算 节点 增多 时 ， 每 个 节 


同 理 ， 当 节点 数 保持 不 变 ， 随 着 数据 集 
Ts 随 之 增 大 ， 因 此 并 行 性 也 同样 会 提高 。 


然而 ， 随 着 节点 数 的 增多 ， 加 速 比 上 升 的 速度 有 所 下 降 。 原 


因 在 于 该 实验 使 
个 节点 的 内 存 中 ， 
会 增 大 ， 在 一 定 程度 上 抵消 了 节点 增加 带 来 的 性 能 提升 。 


的 数据 不 够 大 ， 数 据 加 载 时 正好 能 装 进 单 
当 节 点 变 多 ， 它 们 间 的 存在 的 通信 开销 也 
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图 6 基于 Spark 改进 算法 与 其 他 算法 运行 时 间 的 比较 
Fig.6 Running time of improved K-means compared with other 
algorithms 
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图 7 基于 Spark 改进 算法 在 不 同 节点 下 运行 时 间 的 比较 


Fig.7 Running time of improved K-means among different number of 


nodes based on Spark 
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上 者 


好 的 


中 的 算法 以 及 传统 K-means 算法 分 别 从 运行 时 间 ， 准确 率 两 
个 方面 加 以 对 比分 析 ， 改 进 后 的 算法 在 运行 时 间 上 和 准确 率 
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图 8 基于 Spark 的 改进 K-means 算法 的 加 速 比 
Fig.8 Speedup rate of improved K-means on Spark 


综 上 所 述 , 本 文 将 提出 来 的 改进 K-means 算法 和 文献 [8] 


有 明显 的 性 能 提升 。 从 加 速 比 角度 分 析出 该 算法 具有 恨 


行 计算 能 力 。 因 此 总 体 看 本 文 改进 算法 优 于 未 改进 的 


算法 。 


4 


结束 语 


本 文 提出 了 改进 后 的 K-means 算法 及 基于 Spark 分 布 式 


计算 框架 的 并 行 实现 。 该 算法 利用 K-means++ 算 法 选择 出 


AF 


JH, 


个 初始 中 心 点 并 以 MSD 距离 作为 相似 性 度量 距离 划分 数据 


| 相应 的 复 中 ， 然 后 根据 简化 轮廓 系数 法 确定 合适 的 大 值 


作为 簇 中 心 个 数 。 实 验 结果 表明 本 文 提出 的 改进 算法 能 有 效 
提高 算法 准确 率 ， 减 少 运行 时 间 ， 并 通过 在 Spark 集群 环境 
中 比较 多 个 节点 条 件 下 的 并 行 计算 性 能 从 而 说 明 改 进 后 的 算 
法 在 并 行 环境 中 能 发 挥 良好 优势 。 本 文 搭建 的 是 小 型 集群 环 


用 以 处 理 小 规模 的 数据 量 。 在 未 来 的 研究 中 ， 笔 者 计划 


扩大 集群 规模 ， 继 续 优 化 算法 增强 算法 的 并 行 性 ， 使 用 更 大 
数据 级 别 的 数据 检验 算法 的 鲁 棒 性 。 
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